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新 闻 媒 体 领域 中 文 语义 分 析 技 术 
智能 化 、 知 识 化 之 路 的 研究 与 探索 


摘 要: 媒体 融合 发 展 是 一 项 复杂 的 系统 工程 ， 离 不 开 技术 系统 的 变革 与 创新 。 在 新 闻 媒 体 领域 数据 爆炸 ， 同 时 人 工 智 能 领 
域 飞 速 发 展 的 大 背景 下 ， 本 文 针 对 国内 新 闻 媒 体 领 域 中 文 文本 语义 分 析 过 程 中 存在 的 诸多 难题 和 现状 ， 对 中 文 文本 语义 分 析 
在 新 华 社 业 务 系统 中 的 智能 化 、 知 识 化 的 探索 之 路 进行 阐述 与 展望 。 
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在 媒体 格局 、 与 论 生态 、 受 众 对 象 、 传 播 技术 都 在 
发 生 深 刻 变化 的 今天 ， 数 据 在 新 闻 媒 体 转型 发 展 过 程 中 
已 成 为 全 新 的 富矿 。 以 新 华 社 为 例 ， 一 条 新 闻 从 生产 源 
头 的 “采编 发 供 ” 到 用 户 读 考 端 的 传播 与 反馈 ， 都 离 不 
开 文 本 作为 文学 的 载体 和 传播 的 媒介 。 这 些 列 含 着 巨大 
潜力 的 文本 大 数据 , 合理 、 充 分 地 挖掘 其 价值 很 有 必要 。 

另 一 方面 ， 伴 随 着 自然 语言 处 理 技术 的 飞速 发 展 ， 
文本 语义 分 析 已 经 从 20 世纪 基础 的 词典 规则 匹配 、 统 计 


我 社 稿 件 文本 特点 ， 提 出 了 基于 共 现 词 频 过 滤 的 新 词 发 
现 、 少 量 人 工 校 验 辅 助 的 分 词 词 库 控 掘 算法 ， 一 定 程度 
上 提升 了 分 词 准确 率 。 
1.1.2 构建 大 而 全 的 新 闻 媒 体 领 域 语料库 

除了 基于 词 库 规则 的 分 词 算法 ， 还 有 一 种 是 基于 统 
计 机 器 学 习 的 方法 。 这 种 方法 依赖 一 定数 量 的 “机 器 学 
习 的 教材 ”, 即 标注 好 正确 切 分 结果 的 训练 数据 ( 语 料 ) 。 
为 使 分 词 模型 更 适合 我 社 业务 需求 ， 我 们 收集 了 人 民 日 
报 、 国 家 语 委 、 各 大 评测 等 高 质量 标注 的 训练 数据 集 ， 


学 概率 计算 的 方法 ， 渐 渐 转 变 为 当前 主流 的 机 器 学 习 、 
深度 学 习 的 智能 分 析 算 法 。 同 时 ， 分 析 对 象 与 应 用 场景 
也 越 来 越 广泛 ， 涵 盖 了 包括 新 闻 、 评 论 、 社 交 媒体 等 领 
域 的 各 个 方面 。 

党 的 十 八大 以 来 ， 以 习近平 同志 为 总 书记 的 党 中 央 
高 度 重 视 传统 媒体 和 新 兴 媒 体 融 合 发 展 。 新 华 社 作为 媒 
体 融 合 发 展 的 排头 兵 、 先 行者 ， 每 天 都 需要 对 社内 数 万 
条 稿件 及 海量 的 互联 网 文本 进行 实时 准确 的 分 析 ， 中 文 
语义 分 析 作为 基础 技术 ， 不 可 或 缺 。 
1. 新 闻 媒 体 领域 智能 化 的 中 文 语义 分 析 技术 
1. 1 结合 新 闻 稿 件 特性 的 智能 化 词语 切 分 
新 华 社 日 均 有 数 以 万 条 的 稿件 需要 进行 文本 语义 分 
析 ， 而 种 类 繁多 的 智能 分 析 的 背后 ， 都 离 不 开 对 文本 进 
行 词语 的 切 分 , 即 自然 语言 处 理 中 的 分 词 算法 。 众 所 周知 ， 
英文 文本 以 空格 切 分 单词 ， 而 中 文 文本 需要 根据 语义 切 
分 词语 ， 对 连续 字符 按照 语义 规范 进行 重新 组 合 ， 切 分 
难度 更 大 。 针 对 新 闻 媒体 领域 的 歧义 识别 与 新 词 挖掘 等 


中 文 语义 分 析 难 点 ， 着 力 从 三 个 方面 对 其 进行 智能 化 探 
索 。 


1.1.1 新 闻 媒 体 分 词 词 库 的 自动 化 挖 握 
实际 应 用 的 分 词 系统 往往 是 多 种 算法 的 融合 ， 但 一 
般 都 依赖 一 套 高 精度 的 新 闻 媒 体 行业 词 库 。 为 此 ， 结 合 


充分 利用 新 闻 媒 体 领域 的 汉语 组 词 的 规律 切 分 词组 。 
1.1.3 针对 实体 短语 进行 优化 加 强 

作为 国家 通讯 社 ， 新 华 社 从 诞生 起 就 在 党 中 央 的 直 
接 领 导 下 开展 工作 ， 肩 负 党 和 人 民 赋 予 的 神圣 使 命 ， 发 
挥 只 天、 耳目、 智库 和 信息 总 汇 作 用 。 当 然 ， 稿 件 也 以 
正确 舆论 导向 与 时 代 主 旋律 为 主 。 为 此 ， 我 们 针对 部 分 
时 事 政策 类 的 实体 词组 进行 了 大 力 优 化 ， 例 如 “一 带 一 
路 ”,“ 供 给 侧 改 革 ” 等 ， 提 高 了 相关 词组 的 切 分 能 力 。 
具体 效果 如 图 1。 


通用 分 词 算法 
1 一路 和” 1， 


结合 新 闻 稿件 特性 的 分 词 算法 优化 
“| 一带 -路 | ”|，| 是 | 以 | 


| 。 决策 | 。 
结合 新 闻 稿 件 特性 的 智能 化 词语 切 分 效果 对 比 图 


1.2 基于 知识 属性 的 智能 化 主题 分 类 

文字 新 闻 报道 是 新 华 社 的 传统 报道 形式 ， 也 是 核心 
报道 形式 之 一 。 它 及 时 、 准 确 、 权 威 地 报道 党 和 国家 的 
方针 政策 及 国内 外 时 政 、 经 济 、 军 事 、 外 交 、 文 化 等 领 
域 的 重要 新 闻 。 为 了 更 好 地 对 我 社 文字 稿件 进行 智能 分 
析 、 智 能 检索 与 推荐 ， 一 套 新 闻 稿件 智能 主题 分 类 算法 
很 有 必要 。 

当前 ， 新 华 社 知 识 属 性 为 多 类 、 多 级 体系 ( 13 种 一 
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级 知识 属性 分 类 、 千 余 种 多 级 指数 属性 分 类 ) 。 结 合 这 
套 知 识 属性 ， 我 们 建立 了 多 级 主题 分 类 体系 ( 为 了 保证 
智能 分 类 的 准确 性 ， 最 深 可 达 二 级 分 类 ， 详 见 表 1 ) ， 同 
时 结合 当前 流行 的 深度 神经 网 络 算法 , 训练 出 一 套 可 靠 、 
高 效 的 智能 主题 分 类 算法 。 

表 1 基于 新 华 社 知识 属性 的 智能 化 主题 分 类 体系 举例 


分 类 层级 类 别 举例 
政治 、 法 律 
一 级 分 类 文化 、 艺 术 及 娱乐 
社会 一 社会 福利 、 社 会 保障 
二 级 分 类 军事 一 武装 力量 及 其 活动 


1.3 多 个 角度 智能 化 情感 分 析 

新 华 社 在 重大 新 闻 报 道上 ， 除 了 要 打 顾 新 闻 首 发 权 
抢夺 战 ， 同 时 也 要 兼顾 热点 事件 的 全 方位 、 多 维度 的 精 
准 统计 与 分 析 , 这 样 才 可 以 始终 保持 舆论 导向 的 正确 性 。 

情感 分 析 作 为 中 文 语 义 分 析 的 一 项 基础 任务 ， 又 称 
倾向 性 分 析 或 意见 挖 据 。 新 闻 领域 的 情感 分 析 是 对 带 有 
情感 色彩 的 主观 性 文本 进行 分 析 、 人 处理、 归纳 和 推理 的 
过 程 。 

对 热点 事件 新 闻 及 评论 进行 情感 分 析 ， 有 助 于 对 互 
联网 与 论 的 全 面 监测 与 管理 。 在 提升 负面 信息 发 现 处 置 、 
情报 预警 和 与 情 导 控 能 力 的 同时 ， 又 充分 利用 互联 网 数 
据 服务 于 新 闻 生 产 全 流程 。 为 此 ， 我 们 提出 了 从 同一 热 
点 事件 的 不 同 角度 进行 深度 情感 挖掘 的 算法 ， 各 个 话题 
的 情感 立场 在 界面 中 会 一 目 了 然 地 展现 。 如 图 2 所 示 。 


支持 政府 调控 政策 ， 利 国 利 民 @ 


热点 事件 报 


道 : ~ 
《北京 楼 市 调控 升级 ! 》 打击 妙计 行为， 有效 去 杠杆 四 


部 分 市 民 难 以 置换 更 大 的 住房 6 有, 


pg 北京 房价 调控 后 仍 会 上 涨 Ca 


2 面向 事件 多 个 角度 的 智能 化 情感 分 析 效 果 演 示 


1.4 文 本 主旨 的 智能 化 自动 摘要 

自动 文本 摘要 是 利用 智能 化 算法 自动 编写 和 生成 摘 
要 。 面 向 新 闻 文本 的 自动 摘要 技术 是 解决 当前 我 社 大量 
稿件 素材 信息 过 载 问题 的 一 种 辅助 手段 ， 有 助 于 “采编 
发 供 ” 流 程 中 各 类 用 户 更 加 快速 、 准 确 、 全 面 地 获取 新 
闻 文 本 信息 。 如 何 对 这 些 新 闻 文本 进行 高 效 存储 、 信 息 
检索 与 挖掘 成 为 一 个 迫切 需要 解决 的 重要 问题 。 

针对 新 闻 领 域 智能 化 自动 摘要 的 应 用 场景 ， 结 合 新 
闻 文 本 结构 、 句 法 及 语义 相关 的 知识 特征 ， 通 过 大 量 的 
迭代 优化 与 试验 ， 提 出 了 面向 新 闻 文 本 主旨 的 智能 化 自 
动 摘 要 方法 。 
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2. 新 闻 媒 体 领域 知识 化 的 中 文 语义 分 析 技 术 
2. 1 结合 新 闻 要 素 和 特性 的 知识 标签 体系 

众所周知 ， 西 方 新 闻 界 首先 提出 新 闻 要 素 的 概念 ， 
即 何 时 、 何 地 、 何 人 人、 何事、 何故 、 如 何 。 

为 了 使 新 闻 文 本 要 素 与 新 闻 知 识 标签 抽取 相 衔接 ， 
让 机 器 更 加 规范 、 智 能 地 自动 提取 新 闻 标 签 ， 我 们 提出 
了 新 闻 的 标签 体系 ， 包 括 时 间 、 地 点 、 人 物 、 概 念 、 事 
件 五 类 。 其 中 ， 概 念 标签 和 事件 标签 的 定义 本 文 拟定 如 
下 : 

概念 标签 : 可 概括 为 语义 概念 的 文本 词 条 实体 。 

事件 标签 : 可 表征 事件 的 文本 词 条 ， 直 接 引 发 事件 
的 产生 ， 是 决定 事件 类 别 的 关键 特征 。 

其 分 类 与 举例 详 见 表 2。 

表 2 概念 标签 分 类 与 举例 
标签 举例 

“2017 年 4 月 1 日 “星期 一 “上午 8 点 半 ” 


标签 类 别 


时 间 标 签 


等 
地 点 标签 “北京 ”“ 西 大 街 97 号 ”“ 后 海 ”等 
人 物 标签 “ 特 朗 普 ”“ 爱 新 觉 罗 ， 溥仪 ”“ 小 王 ” 等 


通用 知识 库 概 念 “ 部 门 ”“ 记 者 ”“ 人 金融 ”等 
“党 的 群众 路 线 ”“ 供 给 侧 改革 ” 
效应 ”“ 高 温 补 贴 ”等 

“ 抗 帕 金森 治疗 ”“ 名 人 婚纱 设计 师 ”“ 基 
础 的 水 彩 技巧 ”等 

“通报 ” “近视”“ 经 济 增长 ”“ 军 事 合 作 ”“ 召 


“ 伦 勃 六 


概念 短语 知识 库 概念 


长 尾 知识 库 概 念 


本 文 涉及 的 新 闻 体 系 结构 图 如 3: 


概念 标签 


3 ”新 闻 体系 结构 图 


通用 短语 概念 


新 闻 标 签 


2.2 基于 标签 类 别 与 权重 的 知识 自动 提取 

面 对 铺 天 盖 地 的 各 类 型 新 闻 与 素材 数据 ， 如 何 从 中 
挖掘 出 真正 有 用 的 信息 ， 是 大 数据 应 用 的 一 道门 槛 。 以 
我 社 稿 件 文本 为 例 ， 在 大 量 数据 面前 ， 本 文 首先 提出 了 
知识 标签 体系 规范 ， 再 根据 规范 将 稿件 按时 间 、 地 点 、 
人 物 、 概 念 、 事 件 等 要 素 进 行 标注 。 具 体 算法 分 为 基础 
中 文 语义 智能 分 析 、 基 于 语义 紧密 度 挖 据 的 短语 合 3 
标签 候选 集 的 生成 与 过 滤 和 依据 语义 关键 度 的 排序 输出 
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等 步骤， 如 图 4 所 示 。 


新 闻 稿 件 片段 举例 智能 标签 抽取 算法 智能 标签 抽取 结果 

区 件 标 答 。 | 标签 类 型 | 标签 权重 | 
小 米 雷军 谈 人 工 智能 1 | -村 

1 今年 将 有 重要 Ai 产品 发 布 1 。 || 分 司 “| 词性 | 命名 实 体 | T/A Wm 

| I | | 句法 依存 | 指 代 消 解 1 雷军 人 物 7.678 

| 今年 在 人 民 大 会 堂 召开 的 | | 中 小 米 /小 米 科技 概念 6.225 

1 两 会 上 ，“ 人 工 智能 ”是 ! 全 

1 科技 届 代 表 提 及 频率 颇 高 本 全 二 2 ELc5 


1 的 一 个 词 ， 作 为 全 国人 大 | 国 办 
1 代表 的 小 米 科技 CE0 雷 军 | 
1 体 沟 立 


I 全 国人 大 代表 概念 3. 002 
席 媒 体 沟通 会 时 表示 : 


2 
3 
4 
本 5 产品 发 布 事件 3.245 
6 
7 ”媒体 沟通 会 概念 2.688 
8 ”人 民 大 会 堂 地 点 2.333 
9 


1 
1 技术 突破 的 节点 ， 而 小 米 ， | 面 概念 2.011 

1 

1 


eR 
图 4 基于 标签 类 别 与 权重 的 知识 标签 自动 提取 样 例 


伴随 富 标签 体系 的 建立 与 智能 抽取 算法 的 设计 ， 新 
华 社 现 有 稿件 分 类 与 检索 存在 的 诸多 问题 将 进一步 缓解 。 
同时 ， 下 一 步 我 们 会 继续 提升 系统 ， 以 满足 数字 网 络 时 
代用 户 对 稿件 精细 搜索 、 智 能 检索 及 个 性 化 定制 的 需求 ， 

知识 词 条 智能 挖掘 : 


两 会 、 人 工 智能 、 全 国人 大 代表 、 人 民 大 会 堂 
小 米 科技 、CEO、AI 
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提高 稿件 存储 和 检索 的 高 效 性 与 准确 率 ， 深 度 挖 气 稿 件 
在 不 同 领 域 的 应 用 价值 。 
2. 3 面向 业务 系统 的 知识 图 谱 初 探 

知识 图 谱 作 为 知识 工程 的 一 个 重要 分 支 ， 以 语义 网 
络 作为 理论 基础 ， 并 且 结合 了 自然 语言 处 理 和 知识 表示 
和 推理 等 优秀 算法 ， 在 大 数据 的 推动 下 受到 了 业界 和 学 
术 界 的 广泛 关注 。 

构建 知识 图 谱 的 主要 目的 是 获取 大 量 有 关联 的 、 计 
算 机 可 理解 的 知识 网 络 。 新 华 社 建 社 之 日 起 ， 八 十 余年 
的 历史 中 ,海量 非 结构 化 的 稿件 文本 、 半 结构 化 的 表格 
和 网 页 以 及 生产 系统 的 结构 化 数据 中 列 含 了 大 量 待 挖掘 
的 新 闻 知 识 与 关系 (如 图 5 所 示 ) ， 这 部 分 资源 犹如 待 
开发 的 金 矿 ， 非 常 宝贵 。 


知识 词 条 详情 展示 : 
两 会 : 两 会 是 历年 召开 的 中 华人 民 共 和 国 全 国 
人 民 代表 大 会 和 中 国人 民 


今年 在 人 民 大 会 堂 召 开 的 两 会 上 ，“ 人 工 智 能 ”是 科技 届 代 表 提 及 频率 
颇 高 的 一 个 词 ， 作 为 全 国人 大 代表 的 小 米 科技 CE0 雷 军 在 出 席 媒体 沟通 


会 时 表示 : 未 来 所 有 的 技术 公司 都 将 是 Al 公 司 ， 目 前 已 经 到 了 技术 突破 
的 节点 ， 而 小 米 也 将 在 不 久 后 发 布 重 磅 级 人 工 智能 产品 。 


知识 共 指 智能 连接 : 

1) 全 国人 大 代表 一 小 米 科技 CEO 一 雷军 
2) 人 工 智 能 ~AI 

3) 小 米 科 技 一 小 米 


知识 词 条 智能 推荐 : 

1) 两 会 ， 房产 税 、 姚 明 、 人 民 大 会 堂 
2) 人 工 智 能 ;自动 驾驶 、 深 度 学 习 
3) 雷军 : 小 米 、 乔 布 斯 、 饥 饿 营销 


图 5 面向 新 华 社 业务 系统 的 知识 图 谱 初 探 


知识 图 谱 构 建 ， 包 含 了 许多 关键 性 技术 。 从 较为 基 
础 的 自然 语言 处 理 技术 ， 对 稿件 文本 进行 较为 精确 的 分 
词 、 实 体 提取 、 句法 识别 等 工作 , 到 进 阶 的 实体 关系 识别 、 
知识 融合 、 实 体 链接 和 知识 推理 技术 等 。 

鉴于 垂直 领域 词典 苇 乏 、 知 识 人 力 标注 成 本 高 等 现 
状 ， 当 前 新 闻 领 域 缺乏 一 套 规范 性 强 、 可 用 性 高 的 成 型 
知识 图 谱 构建 技术 。 针 对 上 述 两 项 研究 困境 ， 各 大 研究 
机 构 可 与 我 社 资源 互补 ， 真 正 提出 一 套 面向 新 华 社 实际 
业务 系统 的 知识 图 谱 技 术 ， 相 信 对 于 解决 新 闻 稿件 文本 
智能 分 析 问 题 上 将 发 挥 重 要 作用 。 
结论 

本 文 介绍 了 在 媒体 融合 发 展 的 大 趋势 下， 新闻 媒体 
领域 中 文 语义 分 析 技 术 的 智能 化 、 知 识 化 之 路 的 研究 与 
探索 。 

在 智能 化 的 中 文 语义 分 析 技 术 部 分 ， 本 文 首先 介绍 
了 结合 新 闻 稿件 特性 的 智能 化 词语 切 分 方面 的 研究 ， 使 
分 词 效 果 更 符合 新 闻 媒体 业务 要 求 ;其 次 ,分 别 从 应 用 
场景 出 发 ， 人 简要 说 明了 语义 分 析 算 法 ,介绍 了 智能 化 主 


题 分 类 、 人 情感 分 类 和 自动 摘要 技术 。 

在 知识 化 的 中 文 语 义 分 析 技 术 部 分 ， 本 文 提 出 了 结 
合 新 闻 要 素 和 特性 的 知识 标签 体系 ， 并 结合 五 类 标签 的 
实际 特征 ， 设 计 了 基于 语义 紧密 度 挖掘 与 关键 度 排序 的 
标签 自动 抽取 算法 ; 同时， 面向 新 华 社 业务 系统 ， 对 新 
闻 媒 体 领域 规范 性 强 、 可 用 性 高 的 知识 图 谱 技 术 进 行 了 
探索 与 展望 。 品 
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